Análise da qualidade dos vinhos brancos por Anderson Conceição

Introdução

Este relatório compreende a análise de um dataset, que contém as especificações técnicas de vinhos avaliados por profissionais. Possui também, uma coluna chamada quality, que é composta pela média das notas dadas por especialistas.

Resumo dos dados

##        X        fixed.acidity    volatile.acidity  citric.acid    
##  Min.   :   1   Min.   : 3.800   Min.   :0.0800   Min.   :0.0000  
##  1st Qu.:1225   1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700  
##  Median :2450   Median : 6.800   Median :0.2600   Median :0.3200  
##  Mean   :2450   Mean   : 6.855   Mean   :0.2782   Mean   :0.3342  
##  3rd Qu.:3674   3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900  
##  Max.   :4898   Max.   :14.200   Max.   :1.1000   Max.   :1.6600  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.600   Min.   :0.00900   Min.   :  2.00     
##  1st Qu.: 1.700   1st Qu.:0.03600   1st Qu.: 23.00     
##  Median : 5.200   Median :0.04300   Median : 34.00     
##  Mean   : 6.391   Mean   :0.04577   Mean   : 35.31     
##  3rd Qu.: 9.900   3rd Qu.:0.05000   3rd Qu.: 46.00     
##  Max.   :65.800   Max.   :0.34600   Max.   :289.00     
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  9.0        Min.   :0.9871   Min.   :2.720   Min.   :0.2200  
##  1st Qu.:108.0        1st Qu.:0.9917   1st Qu.:3.090   1st Qu.:0.4100  
##  Median :134.0        Median :0.9937   Median :3.180   Median :0.4700  
##  Mean   :138.4        Mean   :0.9940   Mean   :3.188   Mean   :0.4898  
##  3rd Qu.:167.0        3rd Qu.:0.9961   3rd Qu.:3.280   3rd Qu.:0.5500  
##  Max.   :440.0        Max.   :1.0390   Max.   :3.820   Max.   :1.0800  
##     alcohol         quality     
##  Min.   : 8.00   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.40   Median :6.000  
##  Mean   :10.51   Mean   :5.878  
##  3rd Qu.:11.40   3rd Qu.:6.000  
##  Max.   :14.20   Max.   :9.000

Seção de Gráficos Univariados

Plotagem do Histograma - Clorídeos

Análise Univariada

Qual é a estrutura do conjunto de dados?

## 'data.frame':    4898 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...

Quais são os principais atributos de interesse deste conjunto de dados?

Existem 4898 vinhos brancos no dataset, onde são compostos por 12 variáveis, como Ácidez Fixa, Ácidez Volátil, Ácido Cítrico, Açúcar Residual, Cloretos, Dióxido de Enxofre Livre, Dióxido de Enxofre Total, Densidade, pH, Sulfatos, Álcool e Qualidade. O principal atributo aqui, é a qualidade, que é composta da média das notas de 3 enólogos que provaram os vinhos.

Quais outros atributos você? acha que podem lhe auxiliar na investigação destes atributos de interesse?

De acordo com minha pesquisa através de artigos de enologia, suponho que os atributos que mais influenciam o gosto e a qualidade do vinho são: - Ácidez (fixa e volátil) - Ácido Cítrico - Dióxido de Enxofre (livre e total) - pH

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Não achei necessário a criação de novas variáveis para a análise.

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por quê?

Em algumas variáveis, foi possível identificar distribuições assimétricas e positivas, o que indica que algumas características do vinho tendem a serem as mesmas, como por exemplo o nível de cloretos (que de acordo com a literatura, a concentração de cloretos em vinho sofre influência do país produtor e encontra-se em maiores concentrações nos vinhos de países que utilizam irrigação com água salina, ou que possuem solos salobros), a densidade (que define o “corpo do vinho”, que significa quão leve ou denso é um vinho no paladar, influenciando assim a qualidade) e o açúcar residual (proveniente do processo de fermentação).

Na próxima seção, irei fazer a eliminação dos outliers, para não somente melhor visualizações, mas como também para capturarmos as principais relações neste dataset, pois os outliers podem por vezes nos ofuscar para caminhos diferentes, pois como na descrição, o dataset é composto por variantes brancos dos vinhos verdes portugueses, sendo então mais importante a maioria dos valores do que os outliers.

Removendo Outliers

##  fixed.acidity  volatile.acidity  citric.acid     residual.sugar  
##  Min.   :4.70   Min.   :0.0800   Min.   :0.0700   Min.   : 0.600  
##  1st Qu.:6.30   1st Qu.:0.2100   1st Qu.:0.2700   1st Qu.: 1.725  
##  Median :6.80   Median :0.2600   Median :0.3100   Median : 5.200  
##  Mean   :6.83   Mean   :0.2652   Mean   :0.3252   Mean   : 6.390  
##  3rd Qu.:7.30   3rd Qu.:0.3100   3rd Qu.:0.3700   3rd Qu.: 9.700  
##  Max.   :9.00   Max.   :0.5000   Max.   :0.5900   Max.   :23.500  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide
##  Min.   :0.01400   Min.   : 2.0        Min.   : 21.0       
##  1st Qu.:0.03500   1st Qu.:24.0        1st Qu.:107.0       
##  Median :0.04200   Median :34.0        Median :133.0       
##  Mean   :0.04229   Mean   :34.9        Mean   :137.4       
##  3rd Qu.:0.04900   3rd Qu.:45.0        3rd Qu.:166.0       
##  Max.   :0.07300   Max.   :83.0        Max.   :260.0       
##     density             pH          sulphates         alcohol     
##  Min.   :0.9871   Min.   :2.790   Min.   :0.2200   Min.   : 8.40  
##  1st Qu.:0.9916   1st Qu.:3.090   1st Qu.:0.4100   1st Qu.: 9.50  
##  Median :0.9936   Median :3.180   Median :0.4700   Median :10.50  
##  Mean   :0.9939   Mean   :3.188   Mean   :0.4835   Mean   :10.57  
##  3rd Qu.:0.9959   3rd Qu.:3.280   3rd Qu.:0.5400   3rd Qu.:11.40  
##  Max.   :1.0024   Max.   :3.590   Max.   :0.7800   Max.   :14.20  
##     quality     
##  Min.   :4.000  
##  1st Qu.:5.000  
##  Median :6.000  
##  Mean   :5.943  
##  3rd Qu.:6.000  
##  Max.   :8.000

Seção de Gráficos Bivariados

Análise Bivariada

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

  • O álcool possui uma forte correlaçào negativa com a densidade.

  • Alguns atributos se relacionam melhor de formas não lineares, com o açúcar residual e o álcool, assim como a densidade e o álcool.

  • O total de \(SO_{2}\) tem uma correlação inversa bastante notória com o álcool.

  • O ácido cítrico possui uma forte relação com a acidez fixa.

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

  • Em todos os gráficos, havia uma forma de afunilação à uma faixa específica, quando considerado as maiores notas, indicando talvez uma dificuldade de manter os vinhos durante a produção dentro dessa faixa de valores.

Qual foi o relacionamento mais forte encontrado?

  • Foi o da densidade com o álcool, de -0,8 e do açúcar residual e a densidade, de 0,8.

Seção de Gráficos Multivariados

Análise Multivariada

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

  • Para visualizar melhor o álcool, eu usei os sulfatos, o açúcar residual e a densidade. Através do uso dessas variáveis, foi possível a qualidade do vinho em relação à graduação alcóolica.

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

  • Foi interessante notar, que de acordo com os artigos enólogos pesquisados, havia esse trade-off entre graduação alcóolica e o açúcar residual, pois devido ao processo de fermentação um vira no outro e vice-versa. Também foi notório a relação do álcool com a densidade, pois como o álcool tem densidade menor que 1, tem também essa relação em que quanto mais álcool, menor a densidade do vinho.

Gráficos Finais e Sumário

Primeiro Gráfico

Descrição do Primeiro Gráfico

  • Nesse gráfico, vemos que a maior concentração das notas boas [7 (amarelo) e 8 (azul)] tendem a terem a maior graduação alcóolica e menor taxa de \(SO_{2}\) total.

Segundo Gráfico

Descrição do Segundo Gráfico

  • Nesse gráfico, conseguimos notar perfeitamente como a graduação alcóolica interfere na qualidade do vinho. Apesar dos valores de Sulfato variarem, é possível encontrar vinhos nota 8 (azul), quando o sulfato e o álcool são altos, quando o álcool é alto ou quando o sulfato é alto.

Terceiro Gráfico

Descrição do Terceiro Gráfico

  • Eu acho bastante interessante esse gráfico, pois ele mostra perfeitamente como é difícil fazer um bom vinho. A acidez do vinho, que não varia somente durante o processo de produção do vinho, mas como também no processo de amadurecimento das uvas em relação ao clima em que elas foram cultivadas.

  • Isso mostra, que não somente a produção, mas como também a obtenção das uvas é um processo complexo e que depende de vários fatores para proporcionar um vinho de ótima qualidade.

  • Apesar da estreita faixa de valores quando a nota é 8, ainda há muitos valores de outras notas compreendidos na mesma faixa, tornando-se o pH uma variável que não influencia tanto na compreensão das qualidades dos vinhos.

Reflexão

O dataset possui 4898 amostras de vinhos, cada um com 12 variáveis cada. Precisei estudar mais sobre como essas variáveis alteram a percepção do paladar final do vinho. Para a minha surpresa, haviam bastantes coisas que faziam sentido nos dados. Como por exemplo, a relação da graduação alcóolica com a qualidade, com o açúcar residual e com a densidade.

Vimos que nos gráficos da distribuição das característcas, a maioria dos gráficos eram assimétricos positivos, mostrando uma tendência dos vinhos a possuírem algumas características básicas. Um diferencial foi a análise da matriz de correlação, que mostrou baixíssima correlação entre os ácidos e a qualidade do vinho.

A limitação da análise a somente vinhos portugueses, brancos e quase nenhum vinho doce, fez com que muitas variáveis pendessem mais para certos valores, tornando a análise assim bem específica, considerando a quantidade de vinhos e características que eles poderiam possuir, através da variedade de uvas e características climáticas.

Para uma análise futura, seria interessante que o dataset houvesse classes balanceadas, para que houvesse a correta predição das características e não houvesse tendências devido a insuficiência dos dados. Outra coisa a ser considerada, seria a adição de vinhos que fossem doces, para que houvesse também uma comparação se o açúcar residual é realmente um fator decisivo, na consideração da nota de qualidade.

Referências

https://www.r-bloggers.com/how-to-make-a-histogram-with-ggplot2/

http://www.r-graph-gallery.com/wp-content/uploads/2015/10/42_some_colors_name.png

https://cengel.github.io/R-data-wrangling/data-visualization-with-ggplot2.html

https://www.r-bloggers.com/how-to-make-a-histogram-with-ggplot2/

http://jamesmarquezportfolio.com/correlation_matrices_in_r.html

https://ggplot2.tidyverse.org/reference/stat_summary.html

https://www.ensinoeinformacao.com/estatist-prob-curso-assimetria

http://seer.fcfar.unesp.br/rcfba/index.php/rcfba/article/viewFile/546/pdf546

https://www.decanter.com/learn/wine-terminology/sulfites-in-wine-friend-or-foe-295931/

https://winefolly.com/review/understanding-acidity-in-wine/

https://winepedia.com.br/curiosidades/o-acucar-vinho/

http://waterhouse.ucdavis.edu/whats-in-wine/sulfites-in-wine

http://padamson.github.io/r/ggally/ggplot2/ggpairs/2016/02/16/multiple-regression-lines-with-ggpairs.html

http://www.leg.ufpr.br/Rpira/Rpira/node11.html

https://stackoverflow.com/questions/40229620/r-removing-all-outliers-from-a-data-set

https://stackoverflow.com/questions/4862178/remove-rows-with-all-or-some-nas-missing-values-in-data-frame